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摘要 : 


【 目的 】 实 时 、 准 确 、 高 效 地 检测 出 海量 微 博 中 的 突 发 事件 , 为 熏 情 应 急 管理 提供 重要 的 决策 信息 支持 。 


【 方法 ] 引入 参照 时 间 窗 机 制 ,设计 词 频 、 文 档 频率 、 话 题 标 签 (Hashtag)、 词 频 增长 率 4 类 特征 的 选择 与 计算 方 
法 , 基于 动态 阐 值 实现 对 突 发 主题 词 的 抽取 。 在 此 基础 上 , 将 微 博文 本 表示 为 突 发 主题 词 的 特征 向 量 ,使 用 凝聚 
式 层 次 聚 类 算法 实现 了 突 发 事件 的 检测 。[ 结果 ] 将 实验 结果 结合 实例 进行 分 析 ， 突 发 事件 检测 达到 80% 的 准确 
率 , 验证 该 方法 的 可 行 性 和 有 效 性 。[ 局 限 】 由 于 语 料 数据 和 研究 范围 的 限制 , 还 未 实现 对 所 检测 突 发 事件 的 自 
动 描述 , 对 网 民情 感 、 事 件 间 语 义 关系 等 要 素 的 分 析 及 考量 也 存在 一 定 欠 缺 。【 结论 】 本 研究 突破 以 往 相 关 研 究 
中 文本 内 容 质量 、 文 本 形式 、 突 发 特征 抽取 结果 的 局 限 ,， 提升 微 博 突 发 事件 检测 的 效率 。 


关键 词 : 突 发 事件 检测 
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突 发 主题 词 ”凝聚 式 层 次 聚 类 


网 络 与 情 ” 微 博 


1 3 引 


微 博 作为 新 型 社交 媒体 平台 具有 使 用 方式 便捷 、 
传播 迅速 、 交 流 互动 性 强 、 内 容 全 面 等 特征 , 已 经 成 
为 突 发 事件 信息 快速 聚集 和 传播 的 重要 渠道 。 突 发 事 
件 是 指 突然 发 生 , 造成 或 者 可 能 造成 严重 社会 危害 ， 
需要 采取 应 急 处 置 措施 予以 应 对 的 自然 灾害 、 事 故 灾 
难 、 公 共 卫 生 事件 和 社会 安全 事件 。 突 发 事件 的 产生 
具有 瞬间 性 ,发 生 中 的 爆发 点 具有 偶然 性 ,发 生 的 时 
间 、 地 点 等 非常 突然 。 当 有 突 发 事件 发 生 时 , 广大 网 
民 越 来 越 习 惯 通过 微 博 实时 发 布 和 获取 突 发 事件 相关 
言 息 ， 并 针对 突 发 事件 发 表 个 人 观点 态度 。 此外， 突 发 
事件 的 频繁 爆发 使 得 针对 微 博 的 网 络 与 情 熏 论 分 析 获 
得 了 各 界 的 密切 关注 。 在 突 发 事件 爆发 的 第 一 时 间 从 
海量 微 博 中 准确 而 高 效 地 检测 出 突 发 事件 , 不 仅 可 以 


了 中 


帮助 用 户 实时 获取 重要 的 突 发 事件 资讯 , 消除 突 发 事 
件 带 来 的 怒 改 心理 , 还 能 够 协助 应 急 管理 机 构 实 时 把 
握 突 发 事件 的 发 展 态势 , 合理 地 控制 和 引导 与 论 发 展 
动向 ， 为 与 情 应 急 管理 提供 决策 信息 支持 ,这 些 对 于 
发 挥 网 络 舆 情 在 保证 民众 知情 权利 和 维护 社会 稳定 健 
康 发 展 等 方面 的 积极 作用 具有 重要 意义 。 


2 相关 研究 


针对 微 博 的 突 发 事件 检测 研究 已 经 取得 一 定 的 成 
果 ，, 主要 分 为 以 文档 为 中 心中 和 以 特征 为 中 心 的 检测 
研究 外。 

以 文档 为 中 心 的 突 发 事件 检测 技术 是 直接 对 文档 
进行 聚 类 , 将 类 簇 看 作 突 发 事件 , 在 此 基础 上 抽取 事 
件 特征 , 用 以 表示 检测 出 的 突 发 事件 中 I。Petrovié 等 站 
提出 一 种 基于 LSH(Locality-Sensitive Hashing) 的 
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Twitter 文本 聚 类 算法 ， 该 方法 优化 了 社交 媒体 上 的 事 
件 检 测 时 间 效 率 , 并 能 保持 算法 的 时 间 和 空间 复杂 度 
恒定 。Phuvipadawat 等 研究 了 Twitter 上 突 发 类 新 闻 
事件 无 监督 聚 类 方式 , 选择 了 一 般 特 征 和 微 博 特 有 特 
下 , 使 用 TF-IDF 方法 赋予 每 种 特征 词 对 应 权重 , 取得 
了 不 错 的 聚 类 结果 。 碎 高 飞 中 提出 了 改进 的 TC-LDA 
算法 ,解决 突 发 事件 检测 中 的 噪音 问题 。 

以 特征 为 中 心 的 突 发 事件 检测 技术 外 重点 在 于 检 
测 突 发 事件 在 实时 数据 流 上 随时 间 变 化 的 突 发 特征 ， 
即 抽 取 突 发 主题 词 品 ， 通 过 对 突 发 主题 词 聚 类 或 者 使 
用 突 发 主题 词 对 文本 进行 表示 后 再 利用 聚 类 算法 ， 达 
到 突 发 事件 检测 目的 。 该 方法 能 够 避免 数据 稀 玻 问题 ， 
但 微 博文 本 短小 而 数据 量 大 , 含 很 多 广告 、 网 络 欺诈 
等 大 量 噪音 , 更 具 实 时 性 ， 所 以 微 博 上 的 突 发 事件 检 
测 更 易 受到 垃圾 信息 的 影响 路 。 针 对 噪声 数据 , 研究 
者 注重 利用 时 序 信息 ,结合 微 博 自 带 的 属性 功能 
Hashtag 等 "挖掘 事件 发 生 时 期 所 呈现 的 突 发 特征 。 
Kleinbergl “很 早 就 发 现 文档 流 会 出 现 突然 持续 一 段 时 
间 后 消失 的 特征 , 提出 了 经 典 的 Bursty 挖 气 方法 。He 
等 由 分 析 词 语 在 时 间 序 列 上 的 趋势 ， 应 用 于 无 监督 的 
突 发 事件 识别 算法 中 。Mathioudakis 等 史实 现 的 
“Twitter Monitor” 系 统 利 用 在 特定 时 间 内 Twitter 中 出 
现 的 频次 异常 高 的 突 发 词 进 行 聚 类 , 实时 发 现 新 兴 突 
发 事件 。Long 等 "在 事件 检测 上 引入 词语 的 文档 频 
率 、Hashtag、 信 息 炉 因 素 以 提取 代表 突 发 事件 的 主题 
词 , 构建 词 共 现 图 应 用 聚 类 算法 获得 了 微 博 中 的 事 
件 。 赵 文清 等 ("使 用 相对 词 频 和 词 频 增长 率 抽取 突 发 
事件 的 主题 词 , 基于 词语 间 的 共 现 图 聚 类 , 将 类 簇 看 
作 微 博 新 闻 事件 。Yao 等 ("通过 监测 用 户 产 生 的 信息 
标记 的 Hashtag 词 变 化 检测 微 博 中 发 生 的 事件 。 王 勇 
等 中 从 词 频 统计 、 词 频 增长 率 和 TF-PDF 三 方面 计算 
词语 的 权重 用 于 抽取 突 发 词 集 , 提出 “绝对 聚 类 ”算法 
以 较 准 确 地 检测 突 发 事件 。 郭 足 秀 等 "将 微 博文 本 特 
征 、 微 博 传 播 特征 和 用 户 影响 力 融合 计算 , 用 于 抽取 
突 发 词 , 使 用 凝聚 式 层次 聚 类 对 突 发 词 聚 类 来 检测 微 
博 的 突 发 事件 。 

综 上 , 现 有 针对 突 发 事件 检测 的 研究 仍 存 在 一 
定 的 局 限 性 ， 多 受制 于 文本 内 容 质 量 、 文 本 形式 、 
突 发 特征 抽取 结果 等 因素 的 影响 。 基 于 此 , 研究 引 
入 微 博 事 件 三 要 素 过 滤 策 略 实现 对 微 博 文本 内 容 质 
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量 的 把 控 ; 同时 结合 微 博文 本 形式 特点 , 通过 繁 简 
字体 转换 、 分 词 、 停 用 词 处 理 和 词性 过 滤 等 方式 对 
微 博 数据 进行 预 处 理 ， 过 滤 可 能 影响 突 发 特征 的 品 
声 信息 ,统一 文本 形式 ; 接着 在 综合 考虑 词语 主题 
表达 能 力 和 突 发 性 的 基础 上 ， 引 入 参照 时 间 窗 机 制 ， 
设计 了 词 频 、 文 档 频 率 、 话 题 标 签 (Hashtag)、 词 频 增 
长 率 4 类 特征 的 选择 与 计算 方法 ， 基 于 动态 阔 值 提取 
有 效 表征 事件 的 突 发 主题 词 作为 突 发 特征 ; 最 后 将 
微 博文 本 表示 为 特征 向 量 , 构造 微 博文 本 相似 度 矩 
阵 ， 使 用 凝聚 式 层 次 聚 类 算法 实现 对 微 博 突 发 事件 
的 检测 研究 。 


3 突 发 事件 检测 研究 框架 


突 发 事件 的 与 情 是 互联 网 用 户 围绕 特定 突 发 事件 
而 持 有 各 自 的 观点 , 进行 相互 交流 与 沟通 产生 的 结果 ， 
并 形成 一 定 的 信息 流 , 表现 出 周期 性 特征 。 突 发 事件 
在 微 博 平台 上 爆发 后 , 一 些 能 够 用 于 描述 事件 的 特征 
便 被 广泛 提起 ， 从 语言 学 角度 分 析 , 这些 特征 是 特定 
时 间 内 突 发 事件 表现 在 微 博文 本 内 容 上 的 突 发 类 词 
语 , 但 单纯 使 用 词语 并 不 能 将 事件 区 分 开 , 需要 利用 
突 发 类 词语 定位 到 对 应 时 间 段 内 的 微 博文 本 , 利用 该 
文本 聚 类 实现 对 突 发 事件 的 检测 。 

具体 检测 框架 如 图 1 所 示 。 研 究 主 要 解决 以 下 几 
个 方面 的 问题 : 

(1) 微 博 数 据 垃圾 信息 多 ， 突 发 特征 容易 受到 只 
声 的 影响 ， 因 此 抽取 突 发 主题 词 之 前 需要 特别 注意 微 
博 数 据 的 噪声 、 垃 圾 信息 过 滤 ， 并 进行 文本 分 词 、 词 
性 标注 等 预 处 理 操 作 。 

(2) 针对 微 博 突 发 事件 的 传播 特征 ， 对 采集 的 
微 博 进行 时 间 窗 划分 , 构造 时 间 序 列 上 的 微 博 数 据 
流 , 通过 捕获 不 同时 间 窗 词语 的 时 序 分 布 及 突 发 规 
律 , 利用 词语 的 词 频 、 文 档 频率 、 话 题 标签 、 词 频 
增长 率 4 类 特征 ， 基于 动态 阐 值 抽取 事件 的 突 发 主 
题词 。 

(3) 对 描述 突 发 事件 的 文本 进行 过 滤 后 , 利用 突 
发 主题 词 作 为 突 发 特征 表示 微 博 文本 , 使 用 凝聚 式 层 
次 聚 类 策略 将 微 博 文本 聚 成 类 艇 , 将 聚 类 结果 作为 突 
发 事件 。 

(4) 通过 实验 对 研究 方法 进行 验证 , 并 结合 实例 
对 突 发 事件 检测 效果 进行 分 析 。 
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图 1 微 博 平台 上 的 突 发 事件 检测 框架 


4 基于 突 发 特征 的 突 发 事件 检测 方法 


4.1 突 发 主题 词 抽 取 

(1) 突 发 主题 词 特征 分 析 

突 发 主题 词 是 在 某 个 时 间 窗 内 被 大 量 使 用 ,而 在 
其 之 前 的 时 间 窗 内 很 少 被 使 用 的 实 词 站 。 基 于 微 博 本 
号 具有 及 时 性 和 裂变 传播 的 特征 , 在 抽取 突 发 事件 的 
突 发 主题 词 之 前 ， 需 要 先 将 连续 的 微 博 数据 流 按照 独 
立 的 时 间 段 划分 。 本 文 将 微 博 数据 按照 时 间 信 息 划分 
成 mxt 个 时 间 窗 , 其 中 m 以 “天 ”为 单位 , 为 了 更 加 细 
粒度 地 实时 检测 微 博 中 事件 的 发 生 时 间 , t 则 可 以 在 
“天 ”的 基础 上 根据 所 需 划 分 为 更 细 时 间 段 的 个 数 ， 以 
“天 ”、“ 小 时 ”、“ 分 钟 ” 或 “ 秒 ” 为 单位 。 为 了 使 从 微 博 中 
提取 的 词语 更 全 面 地 描述 突 发 事件 , 本文 从 词 频 、 文 
档 频率 、 话 题 标 签 、 词 频 增长 率 4 个 方面 制定 突 发 主 
题词 衡量 标准 , 判断 文本 中 一 个 词语 能 否 成 为 突 发 主 
题词 。 

@ 词 频 

词 频 能 够 衡量 一 个 词汇 在 文档 中 的 重要 程度 。 在 统计 意 
义 下 ， 某 一 词汇 若 频繁 出 现 ， 在 菜 种 程度 上 就 意味 着 这 个 词 
语 与 文本 所 表达 主题 相关 的 可 能 性 较 高 ， 因 此 本 文采 用 词 
频 作 为 突 发 主题 词 选择 的 衡量 方法 之 一 。 

@ 文 档 频 率 

对 于 突 发 事件 来 讲 ， 若 包含 某 一 词语 的 微 博 数量 在 当 
前 时 间 窗 内 比较 多 , 说明 这 个 词语 越 可 能 是 菜 一 突 发 事件 
的 特征 词 。 为 了 保证 所 选 特征 词 的 主题 表现 力 ， 本文 对 文档 
频率 进行 调整 ， 引入 炳 的 概念 ,衡量 一 个 词语 对 于 该 段 时 间 
窗 的 突 发 事件 主题 的 表现 力 ， 越 大 说 明 这 个 词语 越 能 表 
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达 突 发 事件 的 主题 信息 。 

话题 标签 

作为 微 博 最 具有 特色 的 功能 属性 之 一 , 话题 标签 
(Hashtag) 能 够 让 用 户 为 所 发 布 的 信息 内 容 创 建 一 个 主题 标 
签 PV 与 事件 关系 越 紧 密 的 特征 词 越 容易 出 现在 微 博 话 题 
标签 中 ,本 文 充分 利用 微 博 话 题 标签 特征 , 通过 计算 词语 的 
话题 标签 权重 衡量 该 词语 与 菜 个 突 发 事件 相关 的 程度 ?1 
其 计算 公式 如 下 : 


Bh I(w;)=1 
1 
HT =1™ (1) 
hi 
I(w;)=0 
N+1 (wi) 


其 中 , HTi 是 时 间 窗 j 上 词语 Wi 的 话题 标签 权重 , I(Wwi) 是 
判别 函数 ，l(wi)=1 表示 至 少 存在 一 个 话题 标签 中 包含 词语 
wi 1(Wi)=0 表示 话题 标签 中 均 不 包含 词语 Wi, hi 是 词语 Wi 出 
现在 话题 标签 中 的 次 数 计数 , N 为 在 当前 时 间 窗 j 时 间 段 内 
话题 标签 的 总 数 ,h! 是 当前 时 间 窗 内 包含 词语 wi 且 含有 话题 
标签 # 的 微 博 条 数 。 

@ 词 频 增长 率 

词语 的 突 发 性 会 随 着 时 间 变 化 而 呈现 急剧 增加 的 状态 ， 
其 最 明显 的 特征 就 是 利用 词 频 增 量 来 筛选 当前 时 间 窗 内 的 
突 发 主题 词 ， 词 频 增 量 通常 使 用 该 词 在 相 邻 时 间 窗 的 词 频 
比例 变化 来 计算 081。 同 时 ,为 了 避免 事件 持续 期 内 相 邻 时 间 
窗 对 词 频 增 长 率 结 果 的 干扰 ,本 文 将 参照 时 间 窗 机 制 中 的 
相对 时 间 窗 和 相 邻 时 间 窗 进行 结合 对 比 ， 计 算 公 式 如 下 : 


让 丰 
FT = 和 一 + A (2) 


其 中 , FTi 表示 词语 Wi 在 当前 时 间 窗 j 的 词 频 增长 率 , 个 
是 词语 Wi 在 时 间 窗 j 内 出 现 的 词 频 ， fiG-j 是 词语 Wi 在 前 一 个 
时 间 窗 六 1 上 的 词 频 ， 若 以 天 为 时 间 单 位 ， 则 fi 是 词语 Wi 在 


j-2 时 间 窗 上 的 词 频 ， 若 以 小 时 为 时 间 单 位 ， 则 全 对 应 前 一 
天 的 第 j 个 时 间 窗 的 词 频 。 和 和 分 别 是 调节 系数 , Xi+7X2=1。 
根据 上 述 分 析 可 以 发 现 微 博 中 词 频 、 文 档 频率 、 
话题 标签 权重 、 词 频 增 长 率 均 较 高 的 词语 更 有 可 能 成 
为 描述 事件 的 突 发 主题 词 。 词 语 的 突 发 主题 度 将 综合 
这 4 种 特征 的 归 一 化 结果 进行 计算 , 计算 公式 如 下 : 


BTword; =F; + DF; + HT + FT (3) 


其 中 , BTwordi 表示 词语 wi 的 在 时 间 窗 j 的 突 发 主 


题 度 ，E; 、DF; 、HT; 、FT; 分 别 是 归 一 化 后 的 词 频 、 


文档 频率 、 话 题 标签 权重 、 词 频 增 长 率 。 将 最 终 得 到 
的 突 发 主题 词 集合 BTword 表示 为 : BTword={wordi, 
word>, Word;, …wordx}， 其 中 wordi 表示 在 当前 时 间 窗 
j 内 第 k 个 突 发 主题 词 。 

(2) 突 发 主题 词 抽取 算法 

一 个 词语 能 和 否 成 为 突 发 主题 词 需要 先 满足 设 定 的 
闵 值 8 标准 , 然后 再 计算 这 些 满足 标准 的 所 有 词语 的 
突 发 主题 度 。 阔 值 8 包括 : 当前 时 间 窗 内 所 有 词 的 词 
频 的 平均 值 51; 当前 时 间 窗 内 所 有 词 的 文档 频率 的 平 
均值 8; 调节 词语 的 突 发 特性 的 经 验 动态 国 值 63; 当 
前 时 间 窗 内 满足 前 3 个 阔 值 的 词语 突 发 主题 度 的 平均 
值 34。 突 发 主题 词 抽取 算法 具体 流程 如 下 : 

输入 微 博 数 据 流 ， 按 正文 发 布 时 间 划 入 不 同 的 时 间 
窗口 ,然后 对 每 一 窗口 中 的 微 博 预 处 理 后 进行 统计 ,得 到 每 
个 时 间 窗 口内 的 总 词语 列表 W。 

@) 读 取 词 语序 列 W 中 的 词 wi, 执行 步骤 @)。 

图 计算 词语 wi 的 词 频 ， 判 断 是 否 大 于 阅 值 85， 若 大 于 则 
保留 该 词语 ,执行 步骤 @， 否则 过 滤 该 词语 wi, 设置 二 计 ]， 
跳 至 步骤 @)。 

@ 计 算 词 wi 的 文档 频率 ,判断 是 否 大 于 辣 值 6,， 若 大 于 
则 保留 该 词语 执行 步骤 (@)， 否则 过 滤 该 词语 Wi, 设置 
二 寺 1， 跳 至 步骤 @)。 

@@ 计 算 词 wi 的 词 频 增 长 率 ,判断 是 否 大 于 阅 值 3， 若 大 
于 则 保留 该 词语 ,执行 步 骤 (@)， 否 则 过 滤 该 词语 wi, 设置 
二 寺 1， 跳 至 步骤 @)。 

@@ 对 满足 以 上 阔 值 标准 的 词语 wi 先 计 算 话题 标签 率 ， 
然后 综合 计算 其 突 发 主题 度 ,判断 是 否 大 于 阅 值 84， 若 大 于 
则 保留 该 词语 ， 执行 步骤 @H， 否则 过 滤 该 词语 wi, 设置 
二 寺 1， 跳 至 步骤 @O)。 

@ 将 该 词语 wi 添 加 到 事件 突 发 主题 词 列 表 BTword 中 ， 
最 终 输 出 该 时 间 窗 所 有 的 突 发 主题 词 。 

按照 以 上 流程 处 理 该 时 间 窗 内 的 所 有 词语 , 保留 
满足 浆 值 的 全 部 词语 作为 突 发 主题 词 ， 这些 突 发 主题 
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词 既 有 较 高 的 主题 表现 力 ， 又 能 体现 事件 的 突 发 特性 ， 
因此 能 较 好 地 表征 突 发 事件 。 
4.2” 突 发 事件 检测 

(1) 基于 突 发 主题 词 的 微 博 文本 特征 表示 

对 于 某 个 时 间 窗 中 的 任意 一 条 微 博 文本 ,基于 当 
前 时 间 窗 中 的 突 发 主题 词 集 BTword={word!，word,， 
word3, …wordx} 进行 文本 特征 向 量 构建 ， 定 义 微 博文 
本 的 向 量 形式 化 表示 如 下 : 

texti = {termil,termi ,termi3，…,termik } (4) 

其 中 , text; 表示 第 i 个 微 博 文本 , termi 表示 第 i 个 
微 博 文本 中 是 否 包含 第 k 个 突 发 主题 词 的 情况 ， 
termixx=1 则 表示 包含 该 突 发 主题 词 ， termix=0 则 表示 不 
包含 该 突 发 主题 词 。 例 如 ， 如 果 时 间 窗 j 中 的 突 发 主题 
词 集 为 { 护 士 , 南京 ， 袁 亚 平 ， 官 员 ， 凑 痪 }， 微 博文 本 
text; 中 包含 的 突 发 主题 词 有 {护士 , 南京， 瘫痪 }， 那 么 
text; 可 以 表示 为 : text={1, 1, 0, 0, 1}。 

借鉴 文献 [18] 中 的 微 博 文本 过 滤 原 则 , 认为 描述 
事件 的 一 条 微 博文 本 应 至 少 包 含 “5W1H”* 中 的 任意 3 
个 要 素 , 但 要 素 类 型 在 微 博文 本 特征 向 量 中 不 再 区 分 ， 
具体 到 微 博文 本 的 突 发 主题 词 特征 向 量 时 , 应 该 至 少 
包含 3 个 突 发 主题 词 。 通 过 剔除 所 有 微 博 文本 中 包含 
突 发 主题 词 个 数 小 于 3 的 微 博 ， 降 低微 博文 本 - 突 发 主 
题词 矩阵 的 稀 琉 性 ,可 以 有 效 提高 突 发 事件 检测 的 效 
率 , 同时 也 保证 了 检测 结果 的 完整 性 。 

(2) 基于 凝聚 式 层 次 聚 类 的 突 发 事件 检测 算法 

在 对 微 博 文本 进行 特征 表示 后 发 现 , 微 博 中 用 户 
表达 突 发 事件 的 语言 比较 相近 ,表现 出 一 种 “围观 ” 现 
象 , 关联 事件 的 微 博 一 般 会 集中 出 现 , 微 博文 本 中 的 
词语 也 通常 围绕 某 些 事件 特征 词语 , 重复 度 很 高 。 因 
此 , 本 文 认为 不 同 微 博文 本 中 包含 相同 突 发 主题 词 的 
个 数 越 多 , 它们 越 可 能 描述 的 是 同一 个 突 发 事件 。 

在 相似 度 计算 方法 选择 方面 , 采用 Jaccard 系数 方 
法 来 判断 微 博文 本 特征 向 量 间 的 相似 度 ， 更 符合 突 发 
事件 聚合 的 真实 情况 ,能 够 反映 出 微 博文 本 间 真 实 的 
相似 性 ， 即 讨论 相同 事件 的 两 个 微 博 文本 重合 度 应 该 
是 较 高 的 , 具体 Jaccard 相似 度 计算 公式 如 下 : 
| texti 门 textj | 
|texti Utextj| 


S(texti, text;) = (5) 


其 中 , S(texti, text) 是 两 个 微 博文 本 之 间 的 相似 度 ， 
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text; 表示 微 博文 本 特征 向 量 , textmtexti 表示 texti, text; 
的 交集 , textiU text; 表示 texti, text 的 并 集 。 

基于 凝聚 式 层次 聚 类 的 事件 检测 算法 流程 如 下 : 

(输入 时 间 窗 j 的 微 博 集 ， 对 微 博文 本 进行 突 发 主题 词 
特征 向 量 表示 , 记 为 texti, 将 突 发 主题 词 数 少 于 3 个 的 texti 
向 量 进 行 过 滤 ， 形成 微 博文 本 - 突 发 主题 词 矩 阵 DD。 

@) 初 始 化 每 个 微 博 文本 特征 向 量 作为 一 个 类 ， 利 用 
Jaccard 系数 计算 两 两 微 博 文本 特征 向 量 的 相似 度 值 Sij， 构 
建 微 博文 本 的 相似 度 和 矩阵 S。 

@ 查 找 相似 度 和 矩阵 S 中 的 最 大 值 max{Si ij。 

@ 依 据 层次 聚 类 的 合并 规则 ,将 事件 类 i、 事件 类 j 合并 
成 新 的 向 量 , 同时 重新 计算 该 新 向 量 与 已 有 事件 类 向 量 的 
相似 度 ， 重 新 调整 相似 度 人 算 阵 S。 

@ 根 据 矩 阵 S 中 列 数 或 行 数 判 断 是 否 满 足 预 设 阅 值 ， 若 
满足 ， 执行 步骤 (0， 否 则 跳 转 至 步骤 @@)。 

(@ 通 过 该 聚 类 过 程 ， 最 终 将 所 有 的 微 博文 本 聚 成 nn 个 类 
徐 , 将 微 博 文本 特征 向 量 text; 映射 为 原始 的 微 博 文本 ， 输 出 
最 终 的 聚 类 结果 ,其 中 每 个 类 禾 代 表 一 个 突 发 事件 。 


5 实验 及 结果 分 析 


5.1 实验 数据 源 及 结果 评价 指标 

(1) 数据 源 及 预 处 理 

在 针对 微 博 数据 的 突 发 事件 检测 研究 领域 , 尚 无 
国际 公认 的 标准 测试 语 料 。 本 文 的 实验 数据 来 源 于 新 
浪 微 博 ,基于 其 开放 平台 API 接口 的 微 博 翁 虫 实现 数 
据 疏 取 , 受 限于 API 接口 的 频次 及 数量 访问 限制 ,只 
获取 了 新 浪 微 博 的 部 分 数据 (2014 年 2 月 25 日 至 3 月 
11 日 期 间 的 180 多 万 条 微 博 数 据 )。 从 实验 的 角度 出 发 ， 
这 些微 博 数据 可 以 作为 全 部 数据 的 一 个 样本 代表 , 用 
于 支撑 本 文 的 实验 分 析 与 研究 。 

微 博 数据 中 充斥 着 大 量 的 垃圾 和 噪声 信息 ,会 对 
突 发 事件 检测 结果 造成 严重 的 影响 , 在 对 微 博 进行 突 
发 事件 检测 之 前 , 需要 对 微 博 数据 进行 预 处 理 , 预 处 理 
操作 包括 噪声 过 滤 、 繁 简 字 体 转 换 、 分 词 及 停 用 词 处 理 
和 词性 过 滤 等 , 微 博 中 的 噪声 主要 有 Q@XXX 噪声 、URL 
链接 噪声 和 表情 符号 , 本文 针 对 特定 的 噪声 类 型 设置 
正则 表达 式 对 其 进行 过 滤 ; 再 进一步 根据 《通用 规范 汉 
字 表 》W™, 提取 所 有 的 繁体 字 和 其 对 应 的 简体 字 , 然后 
将 所 有 的 繁体 字 和 简体 字 进 行 对 应 , 分 别 构建 《繁体 中 
文字 表 》 和 《简体 繁体 中 文字 对 应 表 》 实现 微 博 繁 简 字 
体 转 换 ; 接着 , 利用 NLPIR 汉语 分 词 系统 3] 对 微 博 进 
行 分 词 处 理 并 根据 其 标注 的 词性 实现 词性 过 滤 , 保留 
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名 词 和 动词 ; 最 后 使 用 停 用 词 词 表 ,利用 词汇 匹配 方式 
过 滤 停 用 词 ,完成 对 微 博 数据 的 预 处 理 。 

(2) 实验 结果 评价 指标 

人 @ 突 发 主题 词 抽取 评价 

传统 的 评价 指标 包括 准确 率 (Precision)、 召 回 率 (Recall) 
以 及 下 值 (F-measure) 三 个 参数 ， 由 于 当前 时 间 窗 内 无 法 获取 
所 有 的 突 发 主题 词 ， 因 此 突 发 主题 词 抽取 的 评价 指标 中 ， 召 
回 率 是 难以 直接 计算 的 ， 所 以 本 文 利用 未 进行 突 发 主题 度 平 
均值 阅 值 54, 过 滤 当 前 情况 下 抽取 正确 的 突 发 主题 词 作为 该 
时 间 窗 的 总 体 突 发 主题 词 ， 以 此 计算 召回 率 ， 并 认为 符合 网 
值 84 情况 下 抽取 到 的 突 发 主题 词 为 实验 最 终 需 要 的 词语 , 采 
用 准确 率 、 召 回 率 、EF 值 进行 评价 ， 突 发 主题 词语 是 否 抽 取 正 
确 则 利用 人 工 判 断 该 时 间 窗 上 抽取 的 突 发 主题 词 能 否 描述 或 
概括 现实 生活 中 发 生 的 突 发 事件 。 具 体 的 评价 公式 计算 如 下 : 


Precision(BTword) = (6) 

k 
Recall(BTword) = § (7) 
F-measure(BTword) = 2x Precision x Recall (8) 


Precision + Recall 


其 中 ，Precision(BTword) 表 示 突 发 主题 词 抽取 准确 率 ， 
Recall(BTword) 表 示 突 发 主题 词 抽取 召回 率 ,k 表 示 当 前 时 间 
窗 抽 取 正 确 的 突 发 主题 词 个 数 , K 是 当前 时 间 窗 抽取 的 突 发 
主题 词 总 数 , S 是 未 进行 突 发 主题 度 平均 值 阅 值 84 过 滤 的 词 
语 中 所 有 抽取 正确 的 突 发 主题 词 总 数 。 

@) 突 发 事件 检测 评价 

突 发 事件 检测 结果 方面 ， 因 为 现实 生活 中 发 生 的 突 发 
事件 是 无 法 事先 预知 的 ， 即 某 一 时 间 窗 口内 微 博 中 所 有 的 
突 发 事件 数量 是 难以 事先 获取 到 的 ， 对 于 该 结果 的 召回 率 
也 无 法 直接 计算 得 到 ， 因 此 本 实验 只 选用 准确 率 来 评估 检 
测 的 突 发 事件 正确 与 否 。 将 实验 检测 的 突 发 事件 结果 进行 人 
工 比较 ,通过 判断 检测 的 突 发 事件 是 否 反 映 了 真实 的 突 发 
事件 ， 若 是 则 视 为 识别 正确 ,否则 视 为 错误 。 突 发 事件 检测 
评价 公式 计算 如 下 : 


Precision(event) = (9) 


其 中 , Precision(evenb 是 突 发 事件 检测 的 准确 率 ,e 表示 
当前 时 间 窗 正确 检测 的 突 发 事件 个 数 , E 是 当前 时 间 窗 检测 
出 的 突 发 事件 个 数 。 

5.2 ” 突 发 主题 词 抽取 实验 及 结果 分 析 

针对 微 博 文本 中 事件 的 突 发 主题 词 抽取 , 本 文选 
用 词 频 、 文 档 频率 、 话 题 标签 率 、 词 频 增 长 率 4 类 特 
征 ， 如 表 1 所 示 。 设 计 5 组 特征 组 合计 算 方法 进行 对 
比 实验 , 由 此 说 明 本 文 所 选取 的 特征 计算 方法 是 有 效 
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的 。 方 法 1 用 来 考察 4 个 特征 计算 组 合 方法 对 突 发 主 
题词 抽取 的 影响 , 方法 2 至 方法 5 用 来 分 析 词 语 的 词 
频 增 长 率 、 话 题 标签 率 、 文 档 频率 、 词 频 特征 计算 方 
法 对 突 发 主题 词 抽取 的 影响 。 
表 1 突 发 主题 词 的 特征 计算 方法 对 比 组 合 设计 
方法 编号 特征 计算 方法 组 合 
词 频 , 文档 频率 , 话题 标签 率 , 词 频 增 长 率 
词 频 ,文档 频率 ,话题 标签 率 
词 频 ,文档 频率 , 词 频 增长 率 
词 频 ,话题 标签 率 , 词 频 增长 率 
文档 频率 , 话题 标签 率 , 词 频 增长 率 


a 上 iD 一 


以 天 为 时 间 窗 , 使 用 2014 年 2 月 25 日 至 2 月 27 
日 的 数据 进行 实验 , 设置 词 频 增长 率 计算 公式 中 调节 
系数 =0.5，)2=0.5， 词 频 增 长 率 阔 值 ;=0.5。 在 不 同 
的 特征 计算 方法 下 针对 2 月 27 日 数据 进行 突 发 主题 词 
抽取 的 统计 结果 如 图 2 所 示 : 


100.00% 
90.00% 


80.00% - 
70.00% - 
60.00% 
50.00% 2 
40.00% 国 
30.00% 
20.00% 
10.00% 二 

0.00% - 


方法 1 ”方法 2 方法 3 方法 4 方法 5 
图 2 不 同 特 征 计 算 方 法 下 突 发 主题 词 抽取 结果 


根据 图 2 可 以 发 现 , 方法 2 与 方法 1 对 比 , 准确 
率 、 召 回 率 都 下 降 了 很 多 , 这 说 明 词 频 增长 率 计算 方 
法 对 于 抽取 突 发 主题 词 特别 重要 , 利用 词 频 增长 率 判 
断 词语 的 突 发 特性 ,可 以 提高 突 发 主题 词 抽取 的 准 召 
率 。 方法 3 至 方法 5 的 结果 说 明了 本 方法 中 话题 标签 
率 、 文 档 频 率 、 词 频 三 种 特征 计算 方法 的 有 效 性 ,对 
比 准确 率 发 现 词 频 对 提高 准确 率 的 作用 最 大 ， 其 次 是 
文档 频率 、 话 题 标 签 率 。 从 召回 率 看 出 , 文档 频率 能 
够 提高 一 个 词 的 重要 性 , 更 能 将 其 选择 为 突 发 主题 
词 。 综 合 来 看 , 显然 方法 1 组 合 使 用 这 4 种 特征 计算 
方法 所 达到 的 实验 效果 最 好 。 
5.3 ” 突 发 事件 检测 实验 及 结果 对 比分 析 

该 实验 验证 突 发 事件 检测 算法 的 可 行 性 , 通过 划 
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分 不 同 的 时 间 窗 , 使 用 4 个 特征 的 组 合计 算 方法 对 时 
间 窗 内 的 突 发 主题 词 进行 抽取 。 本 部 分 实验 选取 凝聚 
式 层次 算法 和 K-means 算法 进行 聚 类 和 对 比 ， 以 天 为 
时 间 窗 , 选取 2014 年 2 月 27 日 的 数据 为 例 分 别 设置 
聚 类 的 类 得 为 5、10、15、20 进行 实验 ,利用 准确 率 
评价 基于 聚 类 方法 的 突 发 事件 检测 效果 ,最终 的 统计 
结果 如 图 3 所 示 : 

90.00% - 
80.00% : 
70.00% 
60.00% 


50.00% 
40.00% 


30.00% ;| | | | | 
20.00% 
10.00% 
oR RE 汪汪 起 攻 i 
图 3 凝聚 式 层 次 聚 类 和 K-means 聚 类 算法 下 
突 发 事件 检测 的 准确 率 结果 对 比 

根据 实验 结果 可 知 , 在 突 发 事件 检测 算法 上 , 凝 
聚 式 层 次 聚 类 的 结果 要 优 于 K-means， 当 聚 类 的 类 艇 
个 数 开 取 值 为 10 的 时 候 ， 突 发 事件 检测 的 准确 率 结 
达到 80%， 获 得 一 个 较 优 的 结果 , 随 着 K 增 大 , 准确 
率 有 所 降低 。 对 实验 数据 和 结果 进行 分 析 发 现 , 一 个 
突 发 事件 可 能 会 涉及 多 个 方面 的 内 容 , 当 开 过 度 增 大 ， 
会 将 一 个 突 发 事件 划分 成 多 个 与 事件 相关 但 又 无 法 成 
为 一 个 独立 事件 的 细 粒 度 侧 面 信息 ,这 些 侧面 信息 的 
类 艇 有 可 能 不 是 突 发 事件 。 

实验 取得 不 错 的 效果 , 笔者 认为 主要 有 以 下 几 个 
方面 的 原因 : 

(1) 针对 突 发 特征 容易 受到 微 博 中 噪声 数据 的 影 
响 问 题 , 研究 了 微 博 上 的 噪声 处 理 方法 , 通过 对 繁体 
转 简 体操 作 , @XXX 符号 、URL 链接 及 表情 符号 等 噪 
声 的 过 泪 、 词 性 过 滤 及 停 用 词 的 处 理 ， 有 效 提高 了 微 
博文 本 的 质量 , 为 突 发 事件 的 检测 提供 了 较 好 的 数据 
基础 。 

(2) 充分 利用 突 发 特征 的 爆发 规律 , 结合 微 博 自 
身 的 Hashtag 标签 属性 , 提出 了 动态 闵 值 的 突 发 主题 
词 抽取 算法 。 选 取 词 频 、 文 档 频 率 、 话 题 标 签 和 词 频 
增长 率 特征 计算 方法 , 在 此 基础 上 设计 抽取 算法 能 
有 效 地 从 大 量 的 词语 中 筛选 既 具 有 主题 表现 力 , 又 具 
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有 突 发 特性 的 高 质量 突 发 主题 词 , 而 且 动 态 调节 词 频 
增长 率 阐 值 能 够 获得 不 同 的 突 发 主题 词 个 数 ， 进 而 影 
响 检 测 的 突 发 事件 个 数 。 

(3) 以 突 发 主题 词 为 基础 对 微 博文 本 进行 特征 
向 量 表示 ,并 结合 设置 的 过 滤 策 略 保 留 有 效 的 微 博 向 
量 , 利用 Jaccard 相似 系数 计算 微 博 特征 向 量 间 的 相似 
度 , 更 好 地 体现 了 突 发 事件 文本 间 的 相似 情况 , 在 此 
基础 上 ,利用 凝聚 式 层次 聚 类 实现 了 突 发 事件 检测 ， 
确保 了 突 发 事件 检测 的 可 行 性 和 有 效 性 。 


6 结 论 


本 文 以 微 博 为 研究 平台 , 针对 突 发 事件 检测 进行 
研究 , 结合 微 博 自 身 特征 设计 并 实现 了 以 突 发 特征 为 
中 心 的 突 发 事件 检测 方法 ,进行 了 突 发 主题 词 抽取 和 
突 发 事件 检测 实验 , 获得 了 较 高 的 准确 率 。 由 于 语 料 
数据 和 研究 范围 的 限制 ， 还 未 实现 对 所 检测 突 发 事件 
的 自动 描述 , 在 对 网 民情 感 、 事 件 间 的 语义 关系 等 对 
突 发 事件 检测 有 重要 意义 的 要 素 分 析 及 考量 还 有 一 定 
欠缺 。 因 此 , 未 来 将 进一步 尝试 结合 网 民 的 用 户 情感 
特征 、 事 件 间 的 语义 关系 辅助 微 博 平台 上 的 突 发 事件 
检测 研究 ， 以 期 获得 更 好 的 检测 结果 。 
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A New Method to Detect Bursty Events from Micro-blog Posts Based 
on Bursty Topic Words and Agglomerative Hierarchical Clustering 
Algorithm 


Ding Shengchun Gong Silan Li Hongmei 
(School of Economics and Management, Nanjing University of Science & Technology, Nanjing 210094, China) 


Abstract: [Objective] This paper proposes a new method to detect real time bursty events accurately and efficiently 
from massive micro-blog posts. It provides decision-making information to public opinion emergency management. 
[Methods] First, we introduced the reference time window mechanism, and then designed an algorithm to process the 
data of word frequency, document frequency, Hashtags, and word frequency growth rates. Second, used this dynamic 
threshold based algorithm to extract bursty words. Third, transformed micro-blog texts to feature vector of the bursty 
words. Finally, we detected the bursty events using agglomerative hierarchical clustering algorithm. [Results] The 
bursty events detection method reached 80% of accuracy rate compared with real world cases. Thus, the proposed 
method was feasible and effective. [Limitations] We could not describe the detected emergencies automatically due to 
the limits of data and size of the current study. More research is needed to analyze users’ emotion and semantic 
relationships among the bursty events. [Conclusions] Our study fills the knowledge gaps left by previous research, and 
improves the efficiency of retrieving bursty events from micro-blog posts. 

Keywords: Bursty events detection Bursty topic words Agglomerative hierarchical clustering algorithm 
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EBSCO 信息 服务 助力 全 球 研究 人 员 研 究 一 带 一 路 多 地 区 贸易 计划 


EBSCO 于 近期 推出 一 个 权威 的 国际 化 的 一 带 一 路 参考 资源 库 ， 收集 了 来 自 60 多 个 国家 的 期 刊 和 出 版 物 。 这 个 一 带 一 路 
参考 资源 库 , 帮助 研究 人 员 更 好 地 理解 一 带 一 路 沿 6 线 国家 的 文化 和 经 济 状况 ,发 现 新 的 贸易 机 会 

一 带 一 路 倡议 是 由 中 华人 民 共 和 国 提出 的 贸易 和 经 济 增长 战略 。 De 上 丝 岗 之 路 的 发 展 进一步 连接 中 国 
大 陆 与 一 带 (“ 新 丝绸 之 路 ”) 沿 线 的 西欧 贸易 伙伴 。 en 出 的 海上 改进 策略 包括 新 的 货运 基础 设施 和 区 域 港 口 建设 , 以 支撑 
海外 航运 举措 。 

EBSCO 的 一 带 一 路 参考 资源 库 提 供 了 5 300 多 份 全 文 期 刊 , 包括 许多 难以 找到 的 一 带 一 路 沿线 国家 的 本 地 出 版 物 ,该 资 
源 库 还 包含 近 65 种 全 文 报纸 和 270 多 份 报告 和 会 议 集 。 建 设 该 资源 库 是 EBSCO 致力 于 全 球 学 术 研 究 的 又 一 举措 。 通 过 提 
供 高 质量 内 容 , 一 带 一 路 参考 资源 库 能 为 研究 人 员 提 供 多 国 环境 下 的 全 局 和 局 部 视角 。 

该 资源 库 涵盖 了 多 学 科 的 内 容 , 文章 来 源 范围 广泛 , 包括 ;《 建 筑 科学 eo 0 《测绘 ， 建筑 及 物业 杂志 》( 马 
来 西亚 )、《 教 育 科 学 》( 土 耳 其 )、 《理论 和 应 用 信息 技术 杂志 (巴基斯坦 )《 生 物 医 学 化 学 》( 俄 罗斯 )、《GSTF 数学 、 统 计 学 
及 运筹 学 杂志 》( 新 加 坡 )、《 中 国 经 济 学 家 》( 中 国 )， 等 等 。 

有 关 一 带 一 路 参考 资源 库 人 息 ， 请 访问 : https://www.ebscohost.com/academic/one-belt-one-road-reference-source。 

(编译 自 : https:/www.ebsco.com/news-center/press-releases/ebsco-information-services-helps-global-researchers-prepare-for- 
the-one-bel) 
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